# Packages
library(readr)
library(dplyr)
library(stringr)
# Import full_data
data <- read_csv('raw_data/raw_data.csv')

data %>%
  filter(SO != "Brazilian Journal of Latin American Studies") -> data


# Initial cleaning
data %>%
  filter(
    TI != "Apresentação",
    TI != "Apresentação Presentation",
    TI != "Apresentação/Presentaction",
    TI != "APRESENTAÇÃOO",
    TI != "Editorial",
    TI != "EDITORIAL",
    TI != "Instruções editoriais aos autores",
    TI != "Chamada de Artigos",
    TI != "Erratum",
    TI != "Errata",
    TI != "Meridiano 47",
    !str_detect(TI,"(Editorial Edição)|(EDITORIAL CONJUNTURA GLOBAL)|(EDITORIAL REVISTA CONJUNTURA GLOBAL)|(Editorial Revista Conjuntura Global)|(Editorial v)|(Conselho Editorial)|(Editorial -)"),
    !str_detect(TI,"(Pareceristas)|(Nominata)|(Parecerista)|(Colaboradores)|(Edição Completa)|(Sumário)|(Páginas Iniciais)|(Vol. )|(Volume [0-9])|(v. [0-9])|(Vol [0-9])"),
    !str_detect(TI,"(Banco de resumos)|(Expediente)|(Banco de Resumos)|(NOMINATA)|(Revista Oikos)"),
    TI != "Edição completa",
    TI != "Revista Estudos Internacionais",
    TI != "Nota do Editor",
    TI != "Meridiano 47 v12 n127 set-out 2011",
  ) %>%
  mutate(
    TI = str_to_title(TI),
    AB = str_replace_all(AB, "(Abstract)|(RESUMO)|(Resumo)|(ABSTRACT)","") %>%
      str_trim(),
    AB = na_if(AB, "Não tem resumo"),
    AB = na_if(AB,"Item sem resumo"),
    AB = na_if(AB, "Não há resumo no original."),
    AB = na_if(AB,"**Trabalho de tradução. Não há resumo no original**"),
    DE = str_replace_all(DE,"\\.",""),
    DE = str_replace_all(DE,"(Palavras-chave:)|(Palavras-chaves:)|(Palavras chave:)|(Keywords:)|(Palabras-clave:)|(Palabras clave:)|(Palabras chave:)|(Palavras-Chave:)|(Palabras Claves:)|(Palabras claves:)|(Palabras-claves:)","") %>%
      str_trim(),
    DE = na_if(DE,"Editorial da edição 2/2015"),
    DE = na_if(DE,"-"),
    DE = na_if(DE,"RESUMO"),
    DE = na_if(DE,""),
    DE = na_if(DE,"Sem palavras-chave"),
    CR = na_if(CR, "\\t\\t"),
  ) %>%  
  distinct() -> data

